FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM,8大类29项任务双语性能全球第一
在 AI 多模态的发展历程中,OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力,为跨模态学习奠定了基础。如今,来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源,在中英文双语任务上全面超越 MetaCLIP 2
在 AI 多模态的发展历程中,OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力,为跨模态学习奠定了基础。如今,来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源,在中英文双语任务上全面超越 MetaCLIP 2
语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余。粒度错配:图像/视频天然具有“无限粒度”,而弱标